Lecture 21

这一节的主题是合作。

进行多轮的囚徒困境

前面的囚徒困境可以通过签订合约来进行，但是实际上生活中的很多的活动都是建立在多次的合作中达到的。

	cooperate	defeat
cooperate	2, 2	-1, 3
defeat	3, -1	0, 0

这个经典的囚徒困境博弈进行若干轮。

一方面，我们试图在最开始的时候建立自己的信誉，因此可能一开始就需要进行合作。

但是实际上，我们应该从后往前进行考虑，因为最后一次博弈，之前所有的付出都会是沉没成本，并且最后不用建立自己的声誉，一次双方一定会选择（D, D）。

假设现在博弈进行两轮，那么最后一轮大家都会选择(D, D)，因此收益是(0, 0)。

现在我们类似于战争消耗(war attrition)中的例子一样，进行第一轮的博弈，将未来的收益加入到第一轮的收益矩阵中:

	cooperate	defeat
cooperate	2+0, 2+0	-1+0, 3+0
defeat	3+0, -1+0	0+0, 0+0

后面增加的就是未来的收益。

那么第一轮的游戏和第二轮的游戏是一样的，最后第一轮同样会选择(D, D)。

如果游戏进行500轮，依旧是全部都选择defeat。

这个多轮的囚徒困境博弈实际上就是前面Lecture 16有关垄断者和领域新进者之间的博弈相似。（最后就是垄断者和全部的新进者进行合作）

未来对过去的博弈没有激励或者惩罚，因此无法达成合作的局面。

这样的现象也可以称作是连任失败现象(lame duck)。

lesson：从后面开始崩溃和瓦解。如果要瓦解这样尴尬的局面，我们需要有一个光明的未来。

Finite game - is there hope for cooperation?

	A	B	C
A	4, 4	0, [5]	0, 0
B	(5), 0	(1), [1]	0, 0
C	0, 0	0, 0	(3), [3]

这个游戏会进行两轮。

一开始我们希望一开始就能进行(A, A)。

实际上，在一轮博弈中，(B, B), (C, C)才是纳什均衡点，一开始并不会达到(A, A)。

进行两轮博弈时，如果不进行任何的干涉，那么依旧不会达到一开始就合作的局面。

我们现在进行游戏的指导政策，并且严格按照指导进行游戏：

如果第一轮达到(A, A)的局面，那么双方第二轮都(C, C)。
如果第一轮达到其他的局面，那么第二轮都选(B, B)。

我们将第二轮的收益带入到第一轮：

	A	B	C
A	4+3, 4+3	0+1, 5+1	0+1, 0+1
B	5+1, 0+1	1+1, 1+1	0+1, 0+1
C	0+1, 0+1	0+1, 0+1	3+1, 3+1

这样我们就可以看到一开始能够达到(A, A)的局面，本质上我们将(C, C)作为一种奖励，而将(B, B)作为一种惩罚，使得有一个美好的未来，进行大家都选择合作的激励作用。

本质上有一个计算的公式：

今天不合作的诱惑+明天不合作的惩罚与明天的奖励之间的大小之间的比较：

$5-4+1<3$

[(5-4)(不合作的诱惑)+1(B作为一种惩罚)] < 3(C作为一种奖励)

lesson:

一个阶段的博弈有不止一个NE，我们可以通过预测将来NE的收益，来提供现在选择的动机。

囚徒困境再玩

假设这个游戏进行若干轮，投两枚硬币，一旦两枚是正面，那么结束游戏：最好的方式先进行若干轮合作，游戏快结束进行不合作。

类似于一种以牙还牙的策略。如果合作，那么就继续合作；一旦对方反叛不合作了，那么以后所有都选择不合作。

前面的例子中，一旦到达最后的博弈，那么反叛。

今天不合作的诱惑+明天不合作的惩罚与明天的奖励之间的大小之间的比较：

$3-2<\delta((2+\delta*2+\delta^2*2+\dots)-0)$

但是现实中我们不知道这个合作什么时候结束。因此对我们的显示生活中有很大的指导意义，因为我们的生活中的合作就是一个无限的游戏：一直合作，一旦对方叛变了，那么以后都选择不合作。

囚徒困境和合作的区别

囚徒困境仅仅进行一轮博弈，而合作是进行若干轮的博弈，并且是不知道结束时机的。

21. 合作

Lecture 21

进行多轮的囚徒困境

Finite game - is there hope for cooperation?

囚徒困境再玩

囚徒困境和合作的区别

results matching ""

No results matching ""